Hi 我是 Andy 一個「宅宅數據工程師」,這是我第一次參加鐵人賽,我想透過此次競賽來學習一些 AWS 的相關服務,順便鍛鍊一下我撰寫文章的能力,此系列我將以自己的興趣為主題,來增加每天撰文章的動力。
我常常在想,自己喜歡的事物,到底有多少人也同時喜歡?
所以本次我們將透過其他動漫愛好者「已搜集一段時間」的資料集來作為來源資料,搭配使用 AWS 雲端服務來更進一步的將資料做 ELT 後,最後再使用 BI 工具建立「可視化報表」,來讓自己更輕鬆的看出大家對於各部動漫的喜好程度和評價。
本系列為期三十天,場景是透過 AWS 雲端服務打造一個數據架構,並建立簡易的 Data Pipeline 來處理本次的動漫數據,接著會透過一些維運的服務,來了解各個服務的運作狀況,所以我安排了以下幾個任務章節。
任務章節:
從「理論」到「實作」再到「維運」,讓我們一同踏上這場動漫數據的煉金之旅!
由於時間的限制,本系列文章不會特別詳細的介紹到各服務、工具的深度底層原理,但會透過實際案例帶大家走一遍簡易的數據工程 Pipeline 設計。
下篇我們將進入「DAY2 知識之章-理解資料本源」,讓我們一起來了解動漫資料集的詳細內容。